Topic model (1)

2019 iT 邦幫忙鐵人賽

DAY 20

自我挑戰組

自然語言技術與AI/ML初探系列第 20 篇

2019鐵人賽

smichelle19

團隊InfoSec Horadrim

2018-11-04 20:08:03

4468 瀏覽

分享至

從文集中抽取隱藏「主題」thematic structures 的技術方法，LDA (Latent Dirichlet allocation) (LDA,潜在狄利克雷分配模型) 模型及其延伸變成了最常用的模型，已經被廣泛用來識別大規模文集（document collection）或語料庫（corpus）中潛藏的主題訊息。

主題模型自動分析每個文檔，統計文檔內的詞語，根據統計的信息來斷定當前文檔含有哪些主題，以及每個主題所占的比例各為多少。LDA遵循貝式機率模型。
P(w|d) = \Sigma p(w|z) * p(z|d)
此model架設一個文本裡有k個主題，一個文檔w有多個topic組成，每一個主題又代表了很多單詞所構成的一個機率分佈。

生成文檔的方式：把topic看為一個詞的分布，把標籤看為了一個topic，從而建立一個機率模型，用數據去訓練得到參數。對於文集中的每一篇文檔，先抽取一個topics proportion (theta)；然後對於這個文檔中的每一個詞的位置 wi, LDA 先從theta中選擇一個topic，然後再從這個topic對應的詞分布中選擇一個詞去填充；按照上述步驟直到整個文檔集合產生完畢。示意圖如下：